聪明钱因子模型的2.0版本
三团队成员
开源证券金融工程首席分析师 魏建榕 博士
weijianrong@kysec.cn,微信号:brucewei_quant
执业证书编号:S0790519120001
开源证券金融工程研究员 傅开波
fukaibo@kysec.cn,微信号:18621542108
执业证书编号:S0790119120026
开源证券金融工程研究员 高鹏
gaopeng@kysec.cn,微信号:13951784990
执业证书编号:S0790119120032
摘 要
聪明钱因子:高频数据,低频因子
我们于2016年7月提出的聪明钱因子模型,在量化投资同行中获得了较高的评价。聪明钱因子模型的核心逻辑是,从分钟行情数据的价量信息中,尝试识别机构参与交易的多寡,最终构造出一个跟踪聪明钱的选股因子。聪明钱因子模型首次提出了“高频数据,低频因子”的研究模式。本篇报告的主旨是,提出关于聪明钱因子模型的重要改进。
聪明度指标S是聪明钱因子模型的核心部件
聪明钱因子模型的核心问题是,如何识别聪明钱的交易。聪明钱在交易过程中往往呈现“单笔订单数量更大、订单报价更为激进”的基本特征。基于这个考虑,我们构造了用于度量交易聪明度的指标S,用以筛选聪明钱的交易。不同的S指标的构造方式,将产生不同的聪明钱划分结果,最终影响聪明钱因子的选股效果。因此,聪明度指标S是聪明钱因子模型的核心部件。
聪明钱因子的改进
通过对S指标构造方式的重新考察,我们优化了原始模型对聪明钱的划分,提出了对聪明钱因子的重要改进。改进后的聪明钱因子模型,在全市场范围的五分组多空净值,信息比率达到3.7左右,选股能力明显优于原始模型。
若干重要讨论
其一,聪明钱因子模型的构造过程,选取了成交量累积占比前20%的分钟视为聪明钱交易。通过比照机构投资者交易占比的实证数据、测试不同截止值下的因子选股能力,我们验证了:选取20%作为截止值,是具有合理支撑的。
其二,改进后的聪明钱因子模型,在不同的股票样本空间上,均具有较好的选股效果。总的来说,因子对于中小市值股票,选股能力更加稳健。
风险提示
模型测试基于历史数据,市场未来可能发生变化。
报告链接
https://pan.baidu.com/s/1IS025EuviVw4M_e3KAwygg 提取码:vf9s
报告首次发布时间:2020年02月09日
一、引言
我们于2016年7月提出的聪明钱因子模型,在量化投资同行中获得了较高的评价。聪明钱因子模型的核心逻辑是,从分钟行情数据的价量信息中,尝试识别机构参与交易的多寡,最终构造出一个跟踪聪明钱的选股因子。聪明钱因子模型在首次发布时,受到了较多的关注,究其原因主要有两个方面:其一,模型逻辑简洁,样本内表现良好;其二,模型首次提出了“高频数据,低频因子”的研究模式,是高频因子领域的引领之作。聪明钱因子从提出迄今已有3年7个月,我们一直密切跟踪其动态表现。本篇报告的主旨是,提出关于聪明钱因子模型的重要改进。
二、聪明钱因子的原始模型
聪明钱因子模型的核心问题是,如何识别聪明钱的交易。大量的实证研究表明,聪明钱在交易过程中往往呈现“单笔订单数量更大、订单报价更为激进”的基本特征。基于这个考虑,我们构造了用于度量交易聪明度的指标S(表1,步骤2),指标S的数值越大,则认为该分钟的交易中有越多聪明钱参与。借助指标S,我们通过以下方法筛选聪明钱的交易:对于特定股票、特定时段的所有分钟行情数据,将其按照指标S从大到小进行排序,将成交量累积占比前20%视为聪明钱的交易(表1,步骤3)。
为了更形象地展示这个划分过程,图1中我们给出了一个简单示例。图1的上半部分:这是一段长度为半小时的分钟行情数据,按照时间顺序排列,时间标签依次标为1-30,蓝柱代表每分钟的成交量,红点代表每分钟的S指标值。图1的下半部分:我们按照S值从大到小对原始行情数据进行了重新排序,柱子仍代表每分钟的成交量,绿线代表成交量从左到右的累计占比(相对于总成交量);以成交量累计占比20% 作为划分的界线,将最左侧的6个分钟数据(红柱)划归为聪明钱的交易,剩余的其他分钟数据(蓝柱)则被划为普通资金的交易。
从“量-价”相空间的视角,我们可以更直观地感受S指标在划分过程中起到的作用。在图2中,横坐标为分钟成交量V,纵坐标为分钟涨跌幅的绝对值|R|,每个散点代表一个分钟交易。在最终的划分结果中,红色散点为聪明钱交易,蓝色散点为普通交易,虚线为划分两种交易的分界线。不难发现,分界线的形状直接取决于S指标的构造方式——假设成交量累积占比恰好为20%的分钟交易的S指标值为
综上讨论,聪明度指标S是聪明钱因子模型的核心部件。数学模型不可能尽善尽美,在聪明钱的划分过程中,不可避免存在错误划分的情况:将普通交易划分为聪明钱交易,或者将聪明钱交易划分为普通交易。随着而来的问题即是,能否通过对S指标的改进,优化对聪明钱的划分,进而提升聪明钱因子的选股能力?这是我们在第3节中将要重点讨论的内容。
三、聪明钱因子的改进方案
聪明钱因子模型自2016年7月发布以来,已进行了3年多的样本外跟踪。图3给出了聪明钱因子的收益表现,在2016年7月-2017年初的时段表现稳健,在2017年初之后选股能力明显减弱。在本节中,我们将重新考察聪明度S指标的构造方式,寻找聪明钱因子的改进方案。
01 对开根号的修正
在聪明钱因子的构造步骤中,S指标的计算公式为
为了方便讨论,我们不妨尝试一般化,将分钟成交量V的指数项定义为可变的参数,这样S指标公式可以写成如下形式:
S = |R|/(V^β)
其中,R为分钟涨跌幅,V为分钟成交量,β为分钟成交量V的指数项参数。不难看出,当β取值为0.5时即为原始聪明钱因子S指标;当β取值为0时,S指标可以写为S=|R|;当β取值为-0.5时,S指标可以写为
我们选取若干不同β值分别构造S指标,计算对应聪明钱因子,并对因子进行绩效回测。因子历史回测的基本框架为:回测时段为2013年4月30日至2019年12月31日;样本空间为全体A股,剔除ST股和上市未满60日的新股;每月月初调仓,持仓一个自然月,交易费率千分之三。
从不同β值的IC均值上看,当β为0.7时,因子IC均值在0左右,因子几乎无效;随着β值的逐渐减小,因子IC均值的绝对值逐渐增大,最后达到一个饱和的平台。可以看出,原始聪明钱因子(β=0.5)的选股能力,远远没有达到最优的状态。
为了进一步评价因子的选股能力,我们回测了不同β值下的聪明钱因子多空对冲信息比率和多空对冲净值曲线。可以看出,当β由0.7逐渐减小时,信息比率逐渐增加,当β取值为0.1左右时信息比率最大(3.67),当β由0.1继续逐渐减小时,信息比率呈现出缓慢下降的趋势,但整体信息比率均高于2.5。可以看出,β取值小于0.5以下的因子选股能力要明显优于原始聪明钱因子(β=0.5),并且当β取值为0.1左右时,因子的选股能力最强。
需要说明的是:(1)为了排除路径依赖对因子回测结果的影响,我们在月度调仓频率下,分别选取月初、月中、月内1/4时点、月内3/4时点作为调仓时点,综合比较4条不同路径的回测结果后,上述结论依然稳健。(2)为了排除聪明钱因子在其他因子上的暴露对于回测结果的影响,我们将剔除了主要风格因子后的聪明钱因子进行回测,回测结论依旧稳健。
02 S指标的重新构造
基于不同的逻辑,S指标的构造方式也会不同。本小节我们尝试了3种不同的S指标构造方式 ,并对因子的选股能力进行回测。表2给出了这3种S指标的公式和含义。
具体来看:S1指标单独考虑成交量因素,将分钟成交量较大的交易划分为聪明钱交易;S2指标综合考虑分钟交易的成交量和涨跌幅绝对值排名,将排名之和靠前的交易划分为聪明钱交易;S3指标是基于原始S指标的变形,我们尝试对分钟成交量作对数变换构造聪明钱因子。
我们分别对上述3个S指标构造的聪明钱因子的选股能力进行了回测,并与原始聪明钱因子进行了比较。3个S指标构造的聪明钱因子的IC均值分别为-0.036、-0.043、-0.050,多空对冲信息比率分别为2.03、2.61、3.74,整体上新因子选股能力均优于原始聪明钱因子(信息比率1.69),对分钟成交量作对数变换构造的聪明钱因子(S3指标)选股能力最强。
四、若干重要讨论
01 不同截止值的差异
在原始聪明钱因子的构造过程中,我们取成交量累积占比前20%的分钟视为聪明钱交易,选取20%作为截止值的原因是考虑到:在我国股票市场中,机构投资者交易占比较低。从不同年份的机构投资者交易占比数据可以看出,机构投资者对全市场成交量的贡献比例在10%-20%之间,年度均值在13%左右。
我们基于β值为0.25的S指标,分别选取10%、15%、20%、30%、40%、50%作为截止值构造聪明钱因子,并测试不同截止值下因子的选股效果。可以看出,随着截止值的提高,多空对冲信息比率取值逐渐降低,多空对冲收益曲线不断下降。当截止值取值为15%时,信息比率取得最大值(3.35),略高于原始因子20%截止值的信息比率(3.27),整体上选股能力差异不大。聪明钱因子模型选取20%作为截止值是具有合理支撑的。
02 不同样本池的差异
改进后的聪明钱因子在不同样本空间均具有较强的选股能力,我们选取β值为0.1(S=|R|/(V^0.1))与对数成交量(S=|R|/ln(V))两个S指标的聪明钱因子,给出了因子在不同样本空间的多空对冲净值表现。
对于β值为0.1下的因子:沪深300成分股中,因子多空对冲年化收益14.5%,信息比率1.65,月度胜率74.7%;中证500成分股中,因子多空对冲年化收益17.2%,信息比率2.11,月度胜率74.7%;中证1000成分股中,因子多空对冲年化收益26.3%,信息比率3.81,月度胜率82.3%。
对于对数成交量下的因子:沪深300成分股中,因子多空对冲年化收益16.1%,信息比率1.75,月度胜率73.4%;中证500成分股中,因子多空对冲年化收益18.0%,信息比率2.18,月度胜率74.7%;中证1000成分股中,因子多空对冲年化收益26.5%,信息比率3.65,月度胜率86.1%。
五、风险提示
模型测试基于历史数据,市场未来可能发生变化。
《市场微观结构研究》系列,往期回顾:
(可点击链接)
[3] 市场微观结构研究 | 聪明钱因子模型的2.0版本
团队介绍
开源证券研究所金融工程团队,是一支年轻而富有创造力的团队,致力于提供全面深入、独家创新的量化研究。团队首席魏建榕先生,复旦大学理论物理学博士,专注量化投资研究近10年,历任东方证券研究员、上投摩根基金研究员、方正证券高级分析师、东吴证券联席首席分析师。在实证行为金融学、市场微观结构研究等领域取得了多项独创性研究成果,在国际学术期刊发表论文7篇,代表研报:《蜘蛛网CTA策略》系列、《聆听高频世界的声音》系列、《行业轮动的黄金律》、《反转因子的精细结构(W式切割)》等,在量化圈内有较好反响。作为团队核心成员,2016年获新财富最佳分析师第6名、金牛分析师第5名、水晶球分析师第6名、第一财经最佳分析师第5名。目前,开源金工团队成员来自复旦大学、华东师范大学、南京大学等知名院校,更多优秀成员正在引进中。
团队愿景:开源金工团队,将恪守「原创、深度、讲逻辑、可验证」的量化研究准则,努力为量化投资研究做出属于我们的微小贡献,共同见证中国量化投资事业的持续进步!
法 律 声 明
开源证券股份有限公司是经中国证监会批准设立的证券经营机构,由陕西开源证券经纪有限责任公司变更延续的专业证券公司,已具备证券投资咨询业务资格。
本报告仅供开源证券股份有限公司(以下简称“本公司”)的机构或个人客户(以下简称“客户”)使用。本公司不会因接收人收到本报告而视其为客户。本报告是发送给开源证券客户的,属于机密材料,只有开源证券客户才能参考或使用,如接收人并非开源证券客户,请及时退回并删除。
本报告是基于本公司认为可靠的已公开信息,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、工具、意见及推测只提供给客户作参考之用,并非作为或被视为出售或购买证券或其他金融工具的邀请或向人做出邀请。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突,不应视本报告为做出投资决策的唯一因素。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。本公司未确保本报告充分考虑到个别客户特殊的投资目标、财务状况或需要。本公司建议客户应考虑本报告的任何意见或建议是否符合其特定状况,以及(若有必要)咨询独立投资顾问。在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。若本报告的接收人非本公司的客户,应在基于本报告做出任何投资决定或就本报告要求任何解释前咨询独立投资顾问。
本报告可能附带其它网站的地址或超级链接,对于可能涉及的开源证券网站以外的地址或超级链接,开源证券不对其内容负责。本报告提供这些地址或超级链接的目的纯粹是为了客户使用方便,链接网站的内容不构成本报告的任何部分,客户需自行承担浏览这些网站的费用或风险。
开源证券在法律允许的情况下可参与、投资或持有本报告涉及的证券或进行证券交易,或向本报告涉及的公司提供或争取提供包括投资银行业务在内的服务或业务支持。开源证券可能与本报告涉及的公司之间存在业务关系,并无需事先或在获得业务关系后通知客户。
本报告的版权归本公司所有。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。
开源证券股份有限公司
地址:西安市高新区锦业路1号都市之门B座5层
邮编:710065
电话:029-88365835
传真:029-88365835